多余的研究者造就了多余的科研:论文那么多,可能不少都是无效的
图片来源:shutterstock.com
撰文 彼得·布鲁斯(Peter Bruce)
翻译 李杨
审校 张梦茜
编辑 魏潇
这听起来不可思议,但是,科学研究真的越多越好吗?
“我们需要做更多的脑科学/人工智能/癌症/全球变暖研究……”这不用说谁都知道。无论是各种医疗团体寻求政府基金会资助和民间募捐来治愈疾病,还是围绕气候变化唇枪舌战的政治辩论双方,所有人都认同一点:我们需要做更多的科学研究。大学和非营利研究组织也强烈恳求更多的科研资金。和如此巨大的需求形成鲜明反差的,是研究经费面临枯竭。美国国立卫生研究院(National Institutes of Health)和其他政府研究机构因激烈的财政斗争和国会的预算不足而陷入停滞。
所以怎么会有人认为我们做的研究项目太多了呢?
在发表质疑前,不妨先看看当前的研究结果。2015 年 8 月布莱恩·诺塞克(Brian Nosek)和 Open Science 中心的同事共同分析了 2008 年发表的 100 个心理学研究。其中只有三项研究的结果有显著性或统计学意义。诺塞克和同伴在咨询原作者后,采用相同的方法着手重复这些研究。结果只有 36% 的研究发现得到了证实。而且这部分研究的效应值比原来的还要小(注:effect size,量化现象强度的数值)。
早在 2005 年,约翰·埃尼迪斯(John Ioannidis)就发文寻求科学界对这一问题的关注,题为“为什么大多数发表的研究成果都是错误的”(Why Most Published Research Findings Are False)。他发表过多篇文章强调科学研究的重复性问题。
重复性问题的核心是用于验证研究结果的统计推断方法,尤其是“有统计学意义”这一概念。一个有统计学显著性的结果和你期望从随机条件下得到的结果存在实质上的差别。不过这个概念在实际应用时,它就变成了一个“统计学上的黑匣子”,超出很多研究者的理解范围或研究兴趣。大多数人都只对他们的数据和研究发现感兴趣,搞定“有统计学意义”这一关只是一个必要的过程,像过边境时在护照上盖章一样。
几乎像护照盖章一样,但又不完全一样。如果你是一个旅行者,在一个入口被拒绝了,然后试着进入另一个入口,移民局会记得你被拒过,所以你多半会被再次拒绝。但科学研究的门卫并不如此严厉。如果你的初步结果没有统计学意义,你可以尝试别的统计方法。假设你正在研究维生素 X 对健康的影响,然后你决定采用大型流行病学队列研究(cohort study)的数据集(比如弗莱明汉研究,一项从1948年开始,对马赛诸塞州弗莱明汉居民进行的大型追踪数据统计)。
但你可能会发现,结果让你失望了,数据显示维生素 X 和健康之间没有相关性。但你可以回顾一下,只看女人,或男人,或 50 岁以上的人,有没有阳性结果。谁会知道在找到相关性之前,你进行过多少组对比?统计推断原本是为了防止我们被随机因素愚弄,但当你在大量数据中反复寻找有趣的组合方式时,愚弄你的就成了你自己(除非你正确地运用了所谓的多重测试校正程序,从而提高了有统计学意义的门槛)。
想想这些场景,你会如何解读它们?
场景1,一个人声称他掷硬币每一次都能人头朝上,你让这个人把 25 美分硬币投掷 10 次,结果每次都是人头朝上。
场景2,播音员在洋基队(Yankees)的棒球比赛中要求观众席上的两万名球迷掷硬币 10 次并报告他们是否每次都人头朝上。最后,301 区,P 行,12 座的球迷宣布他全部都人头朝上。
在第一个场景中你做的测试得到了显著结果,你惊讶得认为这个人有超能力。第二个场景中你做了两万个测试,换句话说,你已经创造了两万个不寻常事件发生的机会。所以,当某些球迷出现连续 10 次人头朝上的时候,一点也不奇怪,这几乎是肯定会发生的。
美国统计学协会(The American Statistical Association)在今年 10 月中旬举办了一场统计学研讨会。约翰·埃尼迪斯(John Ioannidis)和斯蒂文·古德曼(Steve Goodman)提出了统计学所面临的挑战,其作为科学研究的好管家的地位正在贬值。埃尼迪斯说:“我们被一片统计学显著性淹没了……”“p 值(计算统计学意义的标准方法)已经成为无聊的麻烦。”这个座谈会是去年的“ASA statement on p-values”的后续,参会者就如何解决这个技术问题展开了讨论,比如,从 p 值大小转而使用围绕效应值的置信区间(confidence intervals)。
但更根本的问题是,有太多研究人员在职业发展的压力下硬造出能发表的研究结果,他们为了有统计学意义追逐太多数据、做太多分析。2011 年,由 PubMed 收录的科研论文数量超过 1200 万,达到 1980 年时的四倍。难道我们也有如此多的突破性发现和创新吗?
布鲁斯·艾博茨(Bruce Alberts)等也在他们讨论医学研究系统缺陷的文章中提到过类似的问题。正如他们所说,“大多数成功的生物医学科学家培养的接班人远远超过了更新换代所需要的,总的来说,培训出的科学家比学术界、政府和私企所能提供的全部相关职位都要多。”
随着越来越多的论文发表,也有越来越多的论文被撤回。这个问题在中国尤其严重。今年年初,《肿瘤生物学》(The journal Tumor Biology)杂志撤回了来自中国的 107 篇论文,因为他们发现了这些文章在同行评议过程中造假。今年发表在《科学与工程伦理学》(Science and Engineering Ethics)上的一项中国生物医学研究人员的调查显示,中国 40% 的研究涉及学术不端行为。
在研讨会上,史蒂夫·古德曼(Steve Goodman)提出,重复性危机之所以这么严重,是因为想要发文章的研究人员太多了。用置信区间等替代 p 值只能在短期内改善这种现象,发论文的其他标准仍可能成为投机取巧的目标。
试想,将 p 值从 0.05 降低到 0.005,就会有改善吗?相反,这可能会让事情变得更糟。提高统计学意义的门槛 10 倍之多确实会对研究结果的发布造成更大的阻碍。但同时,优秀的研究也会无法发表,这些项目通常有严谨的实验设计、诚实的实验和报告、而且很可能具有重复性。然而,那些靠操纵 p 值发表论文的不诚实的研究,仅仅需要更广泛地搜索就能找出可通过统计学意义测试的神奇结果。
这是不是把问题夸大了?不,是我们把它想得太简单了。
重复性的问题在某些研究中尤其尖锐,尤其是那些在现有数据中寻找一些有趣的东西(也就是可发表的新发现)的研究。但那些提前做好假设,然后收集数据来测试它的实验相对来说问题不太严重。后者有一个内在机制来限制结果的不真实性。造假的动机关键在于,这项研究是处于好奇,还是需要回答一个迫不及待的问题?还是由研究人员的职业压力驱动的?
一位著名的数据分析师嘉丽特·史牟莉(Galit Shmueli)反驳了研究项目饱和的说法。她发表过很多论文,阐述使用统计数据进行解释和利用统计进行预测之间的区别。她认为当今的技术环境需要更多与管理、社会科学和人文科学相关的好的研究。
尽管如此,研究人员的人数(大部分取决于政府基金和高等教育部门的扩招)和良好的相关研究结果之间依旧没有自然联系。越来越多的研究人员仍在努力寻找可发表的结果,导致结论夸大,且无法复制。统计学可以提高论文发表的门槛,但这并不会从根本上减少玩猫腻的人对现行科学体系造成的压力。
*本文系作者观点,不代表 Scientific American 和“科研圈”。
作者简介:
彼得·布鲁斯(Peter Bruce)
2002 年,彼得·布鲁斯在 Statistics.com 网站上创立了统计学教育机构(The Institute for Statistics Education)。他是"Data Mining for Business Analytics" (Wiley)和"Practical Statistics for Data Scientists: 50 Essential Concepts" (O'Reilly,2017)的合著者,也是"Introductory Statistics and Analytics: A Resampling Perspective" (Wiley)作者,以及 Resampling Stats software 的合作开发人员。
原文链接:
https://blogs.scientificamerican.com/observations/are-scientists-doing-too-much-research/
阅读更多
▽ 故事
· “清华计算机全球第一”榜单遭抵制:美国计算机研究协会公开指责该榜单很荒谬
· 中国城市已被AI监控:阿里在杭州试点“城市大脑”,是否是把双刃剑?
· 计算机已能“看穿”自杀念头,人工智能判断自杀倾向正确率达87%
▽ 论文推荐
· CRISPR 培根:中国科学家培育转基因低脂猪 | PNAS 论文推荐
· 你害怕所以我害怕:狗狗真的能闻到我们身上的恐惧,然后它们也开始恐慌了
· 你能发现论文造假吗?科睿唯安新工具帮助期刊避免虚假审稿人陷阱
▽ 论文导读
· Nature 一周论文导读 | 2017 年 11 月 02 日
· Science 一周论文导读 | 2017 年 11 月 03 日
内容合作请联系
keyanquan@huanqiukexue.com